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Abstract Due to the lack of a complete synonym list for indicator mapping, different hospitals may use different 
names for the same lab indicator. Lab indicator name discrepancy has greatly affected the medical information 
sharing and exchange among hospitals. It is becoming increasingly important to standardize the lab indicators. Such 
a problem can be seen as an entity alignment task to map different indicators into standard ones. However, a lab 
indicator only involves its name and value, not including any extra properties or contexts which is needed by existing 
knowledge base (KB) alignment or entity linking methods. More importantly, there exists no available standard KBs 
to provide standard indicator terms. Therefore, we cannot implement these existing methods directly. To solve the 
problem, in this paper, we present the first effort to work on lab indicator standardization. We propose a novel 
standardization method, which firstly cluster the indicators based on their names and abbreviations, and then 
iteratively employ a binary classification algorithm based on similarity features and partition score features for 
indicator mapping. Experimental results on the real-world medical data show that the final classification achieves a 
Fl-score of 85.27%, which indicates that our method improves the quality and outperforms state-of-the-art 
approaches. 
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摘要 由 于 没有 完整 可 用 的 指标 同义词 库 以 进行 指标 映射 ， 各 家 医院 关于 同一 检验 检查 指标 的 不 同 称谓 ， 已 严 
重 影响 到 了 区 域 间 医疗 信息 的 互联 共享 , 因而 需要 对 检验 检查 指标 进行 标准 化 处 理 . 这 可 以 看 作 是 一 个 实体 对 
齐 问 题 , 但 指标 只 有 相应 的 取 值 和 取 值 范围 ， 难 以 像 知 识 库 实例 匹配 那 般 使 用 到 属性 信息 ， 也 不 似 实 体 链接 那 
般 拥 有 上 下 文 信息 ,而 且 不 存在 一 个 标准 知识 库 来 提供 所 有 指标 的 标准 名 称 . 该 文 针对 以 上 问题 ， 提 出 指标 标 
准 化 算法 ， 先 根据 指标 字面 特征 进行 聚 类 ,再 使 用 相似 度 特征 和 分 块 打分 特征 迭代 地 进行 二 分 类 映射 . 实验 表 
明 ， 最 终 的 二 分 类 映射 ， 其 Fl-score 可 以 达到 85.27%， 证 明了 该 方法 的 有 效 性 . 
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随 着 医疗 信息 化 的 不 断 深入 ， 国 内 外 在 现 有 医疗 
体系 之 上 相继 建立 起 了 区 域 医疗 健康 平台 。 以 上 海 市 
为 例 ， 随 着 上 海 市 医 联 工程 项 目 在 2008 年 3 月 正式 
投入 使 用 ， 上 海 市 建成 了 包括 市 内 38 家 三 级 医院 的 
临床 诊疗 信息 共享 平台 ， 实 现 了 对 患者 的 基本 信息 、 
基本 病历 资料 、 住 院 病案 资料 、 医 嘱 资 料 、 医 疗 费 用 
资料 、 实 验 室 检 验 检 查 报告 、 医 学 影像 检查 报告 的 交 
换 共享 , 并 通过 网 站 等 其 它 辅助 系统 加 强 各 医院 间 的 


同 义 指 标 或 复 内 只 剩 1 个 指标 为 止 。 最 后 ， 再 由 医学 
专业 人 员 对 指标 对 齐 结果 进行 修正 处 理 。 实验 结果 表 
BA, 在 上 海 市 8 家 三 级 医院 的 实验 数据 集 上 ,最终 的 
二 分 类 映射 算法 Fl-score 可 以 达到 85.27%。 


1 相关 工作 


区 域 医疗 健康 平台 中 的 检验 检查 指标 标准 化 问 
题 ， 可 以 看 作 是 一 个 实体 对 齐 问题 ， 即 将 各 家 医院 的 


协同 诊疗 。 然 而 ， 由 于 历史 原因 ， 各 家 医院 关于 同 
检验 检查 指标 的 称谓 不 尽 相 同 。 仅 以 “血清 钠 ” 为 例 ， 
便 有 “ 钠 离 子 浓度 ”NA+”“ 动 脉 血 钠 ”“ 血 钠 (Na)” 
等 10 多 种 不 同 说 法 。 由 于 目前 并 没有 完整 可 用 的 指 
标 同 义 词 库 以 进行 指标 映射 , 这 一 问题 已 严重 影响 到 
区 域 间 医疗 信息 的 互联 共享 。 由 此 ， 对 区 域 医 疗 健 
康平 台中 检验 检查 指标 做 标准 化 处 理 , 将 各 家 医院 的 
同一 指标 的 不 同 称谓 映射 成 统一 的 标准 名 称 , 便 显 得 
至 关 重 要 。 然 而 ， 由 于 检验 检查 指标 涉及 到 大 量 的 医 
学 知识 ， 加 之 各 家 医院 的 指标 体系 纷繁 庞杂 ， 由 医学 
专业 人 员 对 其 进行 人 工 标准 化 , 需要 耗费 大 量 的 时 间 
与 精力 。 因 此 ， 如 何 设计 一 个 检验 检查 指标 的 标准 化 
算法 ， 便 成 了 关键 所 在 。 

检验 检查 指标 的 标准 化 问题 , 可 以 看 作 是 一 个 实 
体 对 齐 问 题 , 即将 医疗 健康 平台 中 的 候选 指标 映射 到 
标准 指标 上 。 关 于 实体 对 齐 ， 目 前 主要 有 两 类 任务 ， 
分 别 是 不 同 知识 库 中 实体 间 的 实例 匹配 中外， 以 及 文 
本 中 实体 和 知识 库 实体 之 间 的 实体 链接 BI 的。 前 者 常 
利用 知识 库 中 实体 的 属性 信息 进行 实例 匹配 , 后 者 常 
利用 文本 中 实体 的 上 下 文 信息 与 知识 库 中 实体 的 属 
性 信息 进行 实体 链接 。 然 而 ， 本 文 的 任务 与 以 上 两 种 
任务 都 不 同 : 检验 检查 指标 存在 于 电子 病历 之 中 ， 只 
有 相应 的 取 值 及 取 值 范围 , 而 不 存在 属性 信息 ; 同时 ， 
它 也 不 似 文本 中 实体 那 般 拥有 上 下 文 信息 ; 更 重要 的 
是 , 本 文 任务 中 并 不 存在 一 个 标准 知识 库 来 提供 所 有 
指标 的 标准 名 称 。 也 就 是 说 ， 目 前 的 方法 都 难以 直接 
适用 于 本 任务 。 

有 鉴于 此 , 针对 区 域 医疗 健康 平台 中 的 检验 检查 
指标 标准 化 问题 , 本 文 提出 了 一 种 指标 标准 化 算法 框 
架 ， 首 先 对 指标 数据 进行 预 处 理 ， 接 着 利用 指标 的 字 
面 特征 ， 通 过 基于 密度 的 聚 类 算法 ， 将 不 同 的 指标 聚 
为 一 个 个 复 ， 以 缩小 指标 的 对 齐 范围 。 然 后 ， 为 每 一 
个 簇 确定 一 个 标准 名 称 , 并 利用 二 分 类 算法 找 出 簇 内 
标准 名 称 的 同 义 指 标 。 对 于 剩 下 非 同 义 指 标 ， 从 中 得 
选 出 一 个 新 的 标准 名 称 , 继续 利用 二 分 类 算法 进行 同 
义 指标 的 查找 !， 如 此 迭代 进行 ， 直 到 所 有 簇 内 均 为 


| 


! 当然 也 可 以 对 所 有 的 非 同 义 指标 重新 进行 聚 类 ， 如 此 和 迭代 进行 。 
只 是 在 实际 应 用 时 考虑 到 38 家 医院 的 不 同 指标 太 多 ， 聚 类 的 时 间 成 


不 同 指标 称谓 映射 到 统一 的 标准 指标 上 。 目前 的 实体 
对 齐 任务 基本 可 以 分 为 两 类 , 分 别 是 不 同 知 识 库 中 实 
体 间 的 实例 匹配 , 以 及 文本 中 实体 和 知识 库 中 实体 之 
间 的 实体 链接 。 

许多 研究 聚焦 于 知识 库 实体 间 的 实例 匹配 , 这 些 
研究 利用 知识 库 中 实体 的 属性 信息 进行 匹配 , 它们 基 
本 可 以 分 为 两 类 , 分 别 是 成 对 实体 匹配 方法 和 集体 实 
体 匹 配方 法 。 成 对 实体 匹配 方法 主要 有 基于 传统 概率 
模型 的 方法 、 有 监督 学 习 的 方法 、 聚 类 方法 和 主动 学 
习 方 法 。 传统 概率 模型 方法 根据 属性 相似 性 进行 成 对 
实体 比较 BI9， 有 监督 学 习 方 法 常 使 用 决策 树 [DIGG、 
支持 向 量 机 Bo、 集成 学 习 0000 等 方法 进行 二 分 类 ， 
聚 类 方法 利用 属性 相似 性 进行 实体 聚 类 [21131049， 主 
动 学 习 方 法 通过 人 机 交互 不 断 迭 代 来 训练 分 类 模型 
1511607]。 和 集体 实体 匹配 方法 则 将 实体 的 关联 实体 也 
纳入 考虑 ， 常 见 的 方法 有 LDA FUSNI, CRF 模型 
[13]R0、Markov 1748 [2122145 

就 文本 中 实体 与 知识 库 实 体 间 的 实体 链接 而 言 ， 
主要 有 基于 概率 生成 模型 的 方法 BIP31、 基 于 主题 模型 
的 方法 上 209、 基于 图 的 方法 P53Pa27P3 和 基于 深度 神 
经 网 络 的 方法 PoIB0B1B2] 。 

需要 注意 的 是 , 本 文 的 研究 内 容 和 以 上 两 种 研究 
都 不 相同 : 检验 检查 指标 存在 于 电子 病历 之 中 ， 只 
相应 的 取 值 和 取 值 范围 , 难以 像 知 识 库 实例 匹配 那 般 
使 用 到 属性 信息 ; 同时 ， 它 也 不 似 文本 中 实体 那 般 拥 
有 上 下 文 信息 ， 因 而 难以 使 用 实体 链接 的 方法 ; 更 重 
要 的 是 , 本 文 任务 中 并 不 存在 一 个 标准 知识 库 以 提供 
所 有 指标 的 标准 名 称 。 


2 指标 标准 化 算法 


指标 标准 化 算法 的 整体 流程 如 图 1 所 示 。 首 先 ， 
对 指标 数据 进行 预 处 理 ， 实 现 大 小 写 统 一 、 单 位 统一 
和 指标 参考 值 提取 。 接 着 ， 利 用 指标 的 字面 特征 ， 通 
过 基于 密度 的 聚 类 算法 , 将 不 同 的 指标 聚 为 一 个 个 指 


本 很 高 ， 本 文 作为 区 域 医疗 健康 平台 中 检验 检查 指标 的 标准 化 算法 
的 初步 尝试 ， 暂 且 迭 代 使 用 二 分 类 算法 进行 标准 化 
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brik, Da TST UE. a, ARR ETEA ER, WIA ETT, 直到 所 有 人 簇 内 
定 一 个 标准 名 称 , 并 利用 二 分 类 算法 找 出 簇 内 标准 名 BATA SOR GRA AR 1 个 指标 为 止 。 最 后 ， 再 由 
称 的 同 义 指标 , 进行 指标 映射 。 对 于 剩 下 非 同 义 指 标 ， ”医学 专业 人 员 对 指标 对 齐 结果 进行 修正 处 理 。 


从 中 筛选 出 一 个 新 的 标准 名 称 ， 继 续 利用 二 分 类 算法 
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Fig. 1 Overall process of indicator standardization algorithm. 
图 1 指标 标准 化 算法 整体 流程 
AAA T e uoan, 必 填 项 中 主 第 ?个 指标 的 指标 名 称 ，xf BRIR i RI 
要 包括 指标 名 称 、 缩 写 、 参 考 值 、 单 位 、 所 属 检查 项 、 5, EN s- 邻 域 及 核心 对 象 为 : 

检查 指标 结果 、 异 常 指标 提示 等 字段 。 其 中 ， 所 属 检 定义 1 (ce- 邻 域 对 于 x%xED, 它 的 e- 邻 域 为 数 
查 项 因 各 家 医院 标准 不 一 、 检查 指标 结果 因 其 取 值 因 WRD 中 与 x 的 距离 不 大 于 e 的 所 有 样本 ， 即 
病人 而 异 、 异 常 指 标 提示 因 不 具有 指标 区 分 度 而 失去 N20)={x%ED | dist(%, xe}. 

作为 指标 标准 化 特征 的 意义 。 因 此 ， 可 用 的 字段 基本 定义 2 (OHR) 如 果 xW e- 邻 域内 至 少 包 
仪 限于 指标 名 称 、 缩 号 、 参 考 值 和 单位 这 4 项 。 对 指 & minPts 个 样本 ， 即 
标 进 行 数据 预 处 理 ， 主 要 是 统一 指标 大 小 写 、 统 一 指 


N,(x,)| 2minPts, IBA x~ 


标 单位 ， 以 及 提取 指标 参考 值 。 个 核心 对 象 。 
2. 2 指标 聚 类 特别 地 ， 在 确定 e- 邻 域 时 ， 本 文 定义 了 联合 距离 


为 缩小 指标 的 对 齐 范围 , 本 文 使 用 基于 密度 的 聚 。 distioi Oax): 将 指标 数据 %、% 分 为 两 部 分 计算 ， 首 
类 算法 ,将 不 同 的 指标 聚 到 一 个 个 指标 簇 中 。 基 于 密 。 ” 先 计算 multi-hot 形式 (0-1 向 量 中 不 同 的 维度 表示 不 
度 的 聚 类 算法 依据 样本 分 布 的 紧密 程度 来 划分 簇 , 它 同 的 汉字 》 的 指标 名 称 xt x 的 余弦 距离: 


0 


主要 考察 样本 的 可 连接 性 , 并 在 可 连接 样本 的 基础 上 
通过 不 断 扩展 聚 类 簇 来 获得 最 终结 果 。 Vy we 

本 文 基于 DBSCANB3 算 法 ， 使 用 指标 名 称 及 其 jiu 5 Xp") = — eM 
缩写 进行 指标 聚 类 。 具 体 来 说 ,给 定 指标 集合 D={x， Rp ra pee 


— (1) 
X, cory Xap X(x, x), 1=1,2,...,n, HP x 表示 


然后 计算 指标 缩写 x* 、 x 的 编辑 距离 


”实际 操作 中 选 填 项 一 般 无 数据 填 入 。 如 “LOINC 编码 ”字段 是 帮 
助 识 别 是 否 是 同一 个 指标 的 重要 特征 ， 然 而 由 于 是 选 填 项 ， 实 际 上 
没有 任何 数据 填 入 。 


end 


ab ab 
med(xr ,x; ) 
k=k+1 


dist, (x, x”) = 
° max(| x |,| x” |) 


p on] 


© © © 


Generate cluster: Cr=P’-P 


(2) 的 T=T-Cy 
a 一 pro ai B d 
其 ， |x” | 是 指标 缩写 x” 的 字符 串 长 度 ， en 
四 return C 
med (xi, xi) 表示 由 x* AA Bie MRE 需要 注意 的 是 , 由 于 到 类 是 一 个 无 监督 的 学 习 过 


程 ， 它 可 能 存在 两 个 问题 ，1〉 聚 为 一 簇 的 指标 实际 
Bix” 所 需 的 最 少 操作 次 数 。 最 后 ， 利 用 调和 平均 综 。 上 医学 含义 不 同 , 却 因为 名 称 相近 或 缩写 相似 而 被 归 
Atk: 2) 有 些 离 群 值 既 不 是 核心 对 象 ， 又 不 能 通 


人 过 核心 对 象 访问 ， 因 而 没有 被 聚 类 。 因 此 ， 需 要 对 到 
og 2x dist,,,(x)" 4x") x dist (x? x”) 类 结果 进行 后 处 E. | ee 
fom TE dist h(x, x") + dist (xx) QD 单位 验证 。 假设 同 义 指标 的 单位 是 相同 的 ， 那 
么 可 以 对 每 一 篮 指标 进行 单位 验证 , 将 不 同 单位 的 指 
、， OO 标 分 离 为 不 同 的 能 。 

人 @ 离 群 值 推荐 。 对 于 未 被 育 类 的 离 群 值 ， 有 两 种 
人 处 理 方案 , 第 一 种 是 按 距 离 远 近 ， 将 离 群 值 分 到 单位 
Algorithm 1: Density-based clustering algorithm 相符 且 距 离 最 近 的 那 一 簇 中 ; 第 二 种 是 考虑 到 离 群 值 
Input:(1) Indicators set D={x1, x2, ..., Xn} 与 其 它 徐 都 距离 较 远 , 很 可 能 它 本 身 就 是 一 个 全 新 的 

(2) Neighborhood parameters(e, minPts) 指标 。 本 文采 用 第 二 种 处 理 方案 。 


Output: Cluster partition C={C1, C2, ..., Cm} 2.3 ALAA 
© Initialize the Core Object collection: T=@ BIGGER IL Jes ADS TG ARS A HA PRE 
H ; l ARIJE EAEN. FE, KLIYAN E 
we ae 、 ER 
ee ee 一 个 标准 名 称 , 并 利用 二 分 类 算法 将 簇 内 指标 划分 为 
© Determine the Eps-neighborhood: N(x) 标准 名 称 的 同 义 指标 和 非 同 义 指标 两 类 。 特 别 地 ， 为 
@ if DACA) >minPts then 方便 医学 专业 人 员 对 指标 对 齐 结果 i 行 后 处 理 修正 ， 
考虑 到 标准 指标 应 为 最 常用 的 指标 , ARSC AGRA HH 
© Add x; to the Core Object set: T=TU {xi} 频次 最 多 的 指标 为 标准 指标 。 
© end 1) 数据 增强 
Ba 由 于 医学 专业 人 员 很 难 赁 空 枚 举 出 所 有 的 同 义 


指标 , 加 上 有 些 指标 可 能 会 有 与 名 称 毫 无 联系 的 同 义 
ENE 词 (如 “B RARIK” AI RAR, AEREE 
ened 生成 方面 , 除 由 医学 专业 人 员 手 动 标注 部 分 同 义 指标 


© 


Initialize number of clusters: k=0, cluster set: C=@ 


© 

0 Record currently not visited collection: P’=P 用 于 分 类 器 训练 之 外 ， 本 文 还 利用 SNOMED CT 知 

@ Select a core Object o randomly from 7; WEDA, LOINC 知识 库 P5、 百 度 百 科 等 途径 来 抽取 

O° ‘initialize the ques G= a1 标准 指标 的 同义词 用 于 训练 。 其 中 ，SNOMED CT 知 

© Remove o from p,T:P=P-o; T=T-o 识 库 为 全 英文 库 ， 目 前 并 无 中 文 版 本 ， 因 此 需要 借助 

D aieia 百度 翻译 4、 腾讯 翻译 ;、 爱 词霸 翻译 “等 翻译 工具 将 

E E E 英文 指标 翻译 为 中 文 指标 。 需 要 注意 的 是 ， 即 使 对 同 
一 个 指标 ， 翻 译 工 具 也 有 可 能 会 得 到 不 同 的 翻译 结 

Sn 果 ， 因 此 翻译 本 身 也 是 获取 同义词 的 途径 之 一 。 表 1 

ean 给 出 了 “了 B 型 钠 尿 肽 ”经 数据 增强 后 的 同 义 指标 示例 

@ O=O+5 

o Pps on 

@ end 5 http://fanyi.qq.com/ 


6 http://www.iciba.com/ 


Table 1 An example of the Synonymous Indicators 


R1 同 义 指标 示例 


Indicator Name Synonym Synonym Sources 
B 型 钠 尿 肽 脑 尿 钠 肽 Baidu Encyclopedia 
BNP Baidu Encyclopedia 


B 型 利 钠 肽 
B- 型 利 钠 肽 
BAY FARK 
ik B 型 


过 
高 

XI 

<tr 


p> a a> oa 
= Er E >| 


孙 钠 排泄 肽 
jj 利 钠 肽 “物质 ) 


LOINC, Tencent Translation 
Tencent Translation 

Baidu & iCIBA Translation 
Baidu & iCIBA Translation 
iCIBA Translation 

Tencent Translation 

Baidu & iCIBA Translation 


Baidu & Tencent Translation 


2) 特征 抽取 

本 文 设计 了 2 类 特征 用 于 指标 的 二 分 类 , 分 别 是 

相似 度 特征 和 分 块 打分 特征 : 

QD 相似 度 特征 

这 类 特征 主要 考虑 了 艇 中 每 一 个 候选 指标 与 标 

准 指标 及 其 所 有 同义词 的 名 称 相 似 度 和 缩写 相似 度 。 

为 了 方便 描述 ， 以 名 称 相似 度 为 例 〈 缩 号 相似 度 也 是 

同 理 ), 我 们 规定 艇 中 候选 指标 名 称 为 x”， 标准 指标 

名 称 集合 为 8" = {s”,s”,.…s”} ,其 中 下 标 为 标准 

指标 及 其 同 义 指标 的 总 个 数 。 我 们 使 用 以 下 4 种 相似 

度 来 度量 : 
一 一 最 长 公共 子 序列 相似 度 

sim, (xX™,S™ ) = max jia rs) 

i i: min(| x" |,| $7" |) 

|x” | 为 候选 指标 名 称 的 字符 串 长 度 ，jcs(x“, s”) 表 

示 两 个 指标 名 称 的 最 大 公共 子 序 列 。 这 个 相似 度 可 以 

判定 类 似 上 下 位 关系 的 指标 ， 比 如 “血糖 ”和 “血糖 
(急诊 )” 在 最 长 公共 子 序列 相似 度 中 为 1。 

一 一 Jaccard 相似 度 


sim (X™ SS") = max 
1 


其 中 


OS | ,这 个 相似 度 可 
|x" Us 
以 判定 名 称 顺 序 不 同 的 指标 ， 比 如 “B 型 利 钠 肽 ”和 
“ 利 钠 肽 B 型 ”的 Jaccard 相似 度 为 1。 
一 一 余弦 相似 度 
2R 


as Peg 
(ae ay ee 
中 x” 和 s” 均 为 multi-hot 形式 (0-1 向量 中 不 同 的 维 
度 表 示 不 同 的 汉字 )。 这 个 相似 度 衡量 的 是 两 个 
multi-hot 形式 的 指标 名 称 的 余弦 夹 角 , 它 受 到 类 似 中 
间 插 入 “-” 等 格式 问题 的 影响 更 小 一 些 。 

一 一 编辑 相似 度 


med (x"™ ,9“)=Imax(] 一 


sim,,,("" ,S™ ) = max 
了 


COS 


med(x”™, s") 


max(| x™ ||s |) 


)， 其 中 


| x" | 是 指标 名 称 x” 的 字符 串 长 度 ，med(x”, s”) 表 
示 由 x” 经 插入 、 蔡 换 、 删 除 操 作 转 成 s” 所 需 的 最 少 
操作 次 数 。 这 个 相似 度 衡量 的 是 两 个 指标 名 称 的 编辑 
距离 。 
@ 基 于 一 对 多 字段 的 分 块 打分 特征 
分 块 打 分 特征 主要 是 针对 指标 参考 值 这 种 一 对 
多 的 字段 而 言 。 对 于 指标 参考 值 来 说 ， 由 于 不 同 医院 
对 同一 个 指标 , 在 参考 值 的 上 下 界 设置 上 有 时 会 略 有 
不 同 , 因此 实践 中 存在 着 一 个 指标 名 称 对 应 多 个 参考 
值 的 现象 。 为 应 对 这 一 问题 ， 本 文 参考 文献 [36] 中 的 
知识 库 实体 对 齐 分 块 算法 , 提出 基于 参考 值 的 指标 分 
块 打分 算法 ,指标 分 块 打 分 算法 基于 以 下 假设 : 第 一 ， 
相同 的 指标 拥有 相似 的 参考 值 ， 第 二 ,拥有 相似 参考 
值 的 可 能 就 是 同一 个 指标 。 因 此 ， 本 文 的 分 块 打分 算 
法 由 两 部 分 组 成 : 首先 ， 为 标准 指标 的 每 一 种 参考 值 
寻找 一 个 与 之 最 相似 的 候选 指标 参考 值 ; 然后 ， 从 这 
些 最 相似 的 参考 值 出 发 , 构建 候选 指标 与 标准 指标 之 
间 的 匹配 分 块 。 需 要 注意 的 是 ， 由 于 同一 个 指标 可 能 
有 多 种 参考 值 , 算法 允许 同一 个 指标 出 现在 不 同 的 块 
中 。 本文 根 据 不 同 块 的 权重 求 出 候选 指标 的 加 权 平 均 
得 分 ， 以 此 作为 分 类 特征 。 
具体 来 说 ， 给 定 簇 中 某 一 候选 指标 x， 它 所 对 应 
的 参考 值 集合 为 XY = {x 0.x}, Hw R 
示 候 选 指 标 x 的 第 i 种 参考 值 范围 ,以 及 标准 指标 (及 
其 同 义 指标 的 ) BHARA SI = fs ,ss ， 
其 中 8%% 表示 标准 指标 s 的 第 i 种 参考 值 范围 。 本 文 
定义 参考 值 相似 度 如 下 : 

定义 3 (参考 值 相 似 度 ) 给 定 两 个 指标 参考 值 
XY 和 ss ， 定 义 参 考 值 相似 度 


ref ref 
; s ylx Ms | 
sim (X74 8" )= 可 | o 


C 


| xt Uy 
Wt TRUER IE TABS ol, ARCHIE 
中 找 出 一 个 与 sw% 最 相似 的 候选 指标 的 参考 值 x* 使 


得 SIM (x ,81 ) = max SIM, (x 87), FRIIS 


指标 组 成 参考 值 对 p =(x% ,s9% )。 根 据 参 考 值 对 
pio TARERE pA, S RE XARA 
参考 值 为 x* 的 候选 指标 的 集合 ，5; 为 所 有 参考 值 为 
si 的 标准 指标 及 其 同 义 指标 的 集合 。 进 而 定义 参考 
值 对 相似 度 如 下 : 
定义 4 (参考 值 对 相似 度 ) 给 定 两 个 参考 值 对 
定义 参考 值 对 相似 度 
iM, oos (% d X) + SIM, cos (S, $ 5,) 
7 ? 

其 中 sim, (0 好) 表示 将 指标 集合 XN. A 表示 成 


p_ cos 


pet A pst 


> rf rf VS 
SIM, ,oy (PI > D2 ) 


xre. f 


values 


candidate reference 


one-hot 形式 (0-1 癌 量 中 不 同 的 维度 表示 不 同 的 指标 ) 
后 两 者 的 余弦 相似 度 。 

如 图 2 所 示 ， 标 准 参考 值 a” 为 区 间 [0, 100], # 
最 相似 的 候选 参考 值 x 为 区 间 [0, 100]， 故 其 对 应 指 
标 集 对 为 p:=(X, 51)=({A,B},{a,b})。 同 理 ， 标 准 参 考 
值 s% =[0,125] 所 对 应 的 指标 集 对 
p2=(%, $)=({A,B,C}, {a,b}) 由 此 , 
sim, el BO ,pY )= CF +1)/2=0.9082。 


J 


stef Si 


standard 
indicators set 


standard reference 
values 


Fig. 2 A schematic diagram about how to calculate similarity of reference value pairs. 


在 匹配 分 块 时 ， 如 果 两 个 参考 值 对 的 相似 度 大 
FRO, BU sim, (pl. ps”) > 9， 则 其 候选 指标 集 


E 首 、 总 和 标准 指标 集合 5、5 将 被 纳入 同一 个 分 块 
中 。 直 观 上 来 说 ， 如 果 两 个 参考 值 对 共同 拥有 的 指标 
越 多 ， 它 们 就 越 有 可 能 被 分 为 一 块 。 

分 块 完成 后 ， 本 文 将 对 每 一 块 做 打分 处 理 。 定 
义 分 块 结果 B={B1, Bo,..., Bt, Hn 是 块 的 个 数 。 


j 


对 于 任意 一 个 块 BR, RAJ 
scorer a +(I-ay BOOT, gp BOOT uea 


准 指标 所 占 的 比重 ，$ 为 所 有 标准 指标 的 集合 ，vx 是 
权重 参数 。 块 有 中 的 所 有 指标 共享 同一 个 scorei 得 分 。 


由 于 算法 允许 一 个 指标 出 现在 不 同 的 块 中 ， 因 
此 ， 一 个 指标 可 能 会 拥有 多 个 不 同 的 分 数 ， 需 要 根据 


不 同 块 的 权重 及 求 出 它 的 加 权 平 均 得 分 


作为 指标 标准 化 算法 的 初步 尝 


score = > B,score, o 


试 ， 本 文 简 单 地 认为 所 有 块 的 权重 相同 。 特 别 地 ， 如 
果 茶 指标 一 个 块 也 没 被 分 入 ， 则 其 得 分 为 0。 这 也 是 


图 2 参考 值 对 相似 度 计 算 示 意图 


综 上 , 我 们 就 得 到 了 每 个 指标 基于 参考 值 的 分 块 
打分 特征 。 
2. 4 重 定义 簇 

簇 内 二 分 类 将 簇 内 指标 划分 为 标准 指标 的 同 义 
指标 与 非 同 义 指标 。 针 对 非 同 义 指标 ， 本 文 将 其 单独 
取出 作为 一 个 新 的 艇 , 并 从 中 筛选 出 一 个 新 的 标准 名 
称 ， 继 续 利 用 二 分 类 算法 进行 同 义 指 标的 查找 ， 如 此 
ERT, BEIMAAN RREA RR 1 
个 指标 为 止 。 
2.5 指标 映射 与 修正 

到 此 阶段 ， 指 标 标 准 化 算法 已 进入 尾声 ， 只 需 把 
徐 内 的 同 义 指 标 统一 映射 为 对 应 的 标准 指标 ,并 交 由 
医学 专业 人 员 对 指标 的 对 齐 结果 进行 核验 与 修正 。 特 
别 地 , 聚 类 过 程 中 可 能 会 把 同 义 的 指标 分 到 不 同 的 簇 
， 二 分 类 过 程 把 簇 中 非 同 义 指标 剔除 出 来 后 ， 人 工 
核验 时 还 需 对 同 义 的 簇 进行 合 3 


3 实验 结果 与 分 析 


3.1 数据 集 
本 文 从 上 海 临床 诊疗 信息 共享 平台 中 抽取 指标 
数据 集 进 行 实验 。 在 指标 数据 的 抽取 过 程 中 ,本文 考 


上 文 计算 块 中 得 分 score; 时 进行 加 权 平 滑 的 原因 : 只 
要 指标 能 被 分 入 块 中 ， 便 拥有 一 个 基础 得 分 。 


虑 了 两 个 因素 : 第 一 ， 指 标的 种 类 要 丰富 ， 否 则 无 法 
模拟 实际 应 用 场景 ; 第 二 , 同 义 指标 的 名 称 要 多 样 化 ， 


否则 指标 的 标准 化 没有 意义 。 因 此 ， 本 文 以 医院 为 单 
位 ， 抽 取 其 中 所 有 的 指标 ， 保 证 了 丰富 性 ;同时 选取 
了 不 同 指标 名 称 最 多 的 前 8 家 医院 ， 以 满足 多 样 性 。 
这 8 家 医院 的 不 同 指标 名 称 数量 分 别 为 : 1404、1243、 
1098、1010、992、958、921、849， 合 并 去 重 后 共有 
5211 个 不 同 指标 名 称 。 在 扩充 了 这 些 指标 名 称 的 缩写 
字段 之 后 ， 不 同 的 记录 数 为 7542 条 ; 在 扩充 了 这 些 
指标 名 称 的 缩写 和 参考 值 字段 之 后 , 不 同 的 记录 数 达 
到 了 12750 Ko 在 聚 类 实验 部 分 ， 本文 选择 了 236 条 
数据 进行 评测 。 在 二 分 类 实验 部 分 ， 本 文 以 正 负 例 
1:1 的 比例 进行 采样 ， 并 将 采样 结果 按 7:3 的 比例 划 
分 为 训练 集 和 测试 集 ， 最 终 得 到 947 条 训练 样本 和 
406 条 测试 样本 。 本 文 男 外 选取 了 100 个 正 例 和 100 
负 例 作为 验证 集 。 
3.2 实验 设置 

本 文通 过 在 验证 集 上 网 格 搜索 ， 采 用 参数 
minPts=3, €=0.35, BE O=0.7, a =0.6 进行 实验 ， 
选取 梯度 上 升 决策 树 (gradient boosting decision tree, 
GBDT) 作为 最 终 的 二 分 类 模型 ， 并 使 用 Precision, 
Recall 和 Fl-score 来 评价 聚 类 和 二 分 类 的 效果 。 
3.3 实验 结果 
1) 聚 类 算法 对 比 实验 

为 了 考察 本 文 所 使 用 的 基于 密度 的 聚 类 算法 
(DBSCAN) 的 有 效 性 ， 本 文选 取 了 四 种 常见 的 聚 类 
算法 进行 对 比 ， 它 们 分 别 是 k HERK (k-means 
clustering，K-means )、 均 值 漂移 算法 (mean shift 
algorithm, Meanshift ) 、 高 斯 混合 模型 (gaussian 
mixture model, GMM ) 与 凝聚 层次 聚 类 (Cagglomerative 
hierarchical clustering，AHC)。 需 要 注意 的 是 ， 由 于 
这 四 种 基准 算法 除 高 斯 混合 模型 外 都 需要 事先 定义 


复数 〈 而 本 文 算法 不 需要 )， 在 实验 时 本 文 将 它们 的 
聚 类 数目 设 为 真实 的 复数 。 实 验 结果 如 表 2 所 示 。 


Table 2 Comparisons of our method and common clustering 


methods 
表 2 不 同 聚 类 算法 的 性 能 对 比 
Clustering Algorithm Precision Recall Fl-score 
K-means 37.88 21.31 27.27 
Meanshift 34.93 18.85 24.49 
GMM 42.17 23.98 30.58 
AHC 35.16 20.30 25.74 
Our DBSCAN 27.85 91.36 42.68 


从 表 中 可 以 看 出 ， 本 文 基于 密度 的 聚 类 算法 的 
Fl-score 明显 高 于 其 它 4 种 聚 类 算法 ， 其 提高 幅度 均 
在 10% 以 上 。 然 而 ， 虽 然 本 文 方法 的 Recall 能 达到 
91.36%， 但 Precision 仍然 不 是 很 高 ， 这 也 显示 了 本 
文 在 聚 类 后 进一步 进行 二 分 类 映射 的 必要 性 。 
2) 二 分 类 算法 对 比 实验 

GD 不 同 分 类 特征 和 不 同 分 类 器 的 对 比 

为 了 考察 不 同 分 类 特征 和 不 同 分 类 器 对 分 类 性 
能 的 影响 ， 本 文选 择 不 同 的 特征 组 合 ， 将 它们 在 逻辑 
回归 Clgistic regression，LR)、 朴 素 贝 叶 斯 (naive 
bayes, NB)、 kk 近邻 (k-nearest neighbor, KNN), 
支持 向 量 机 (support vector machine，SVM)、 随 机 和 森 
林 (random forest，RF)、 梯 度 上 升 决策 树 (gradient 
boosting decison tree, GBDT) 等 不 同 分 类 器 下 的 
Fl-score 进行 对 比 。 实 验 结果 如 表 3 所 示 ， 其 中 特征 
字段 的 名 称 (name), 45 (abbreviation，Abbr ) 和 
参考 值 (reference value, Ref.) 分 别 表示 名 称 相 似 度 
特征 、 缩 写 相 似 度 特 征 和 参考 值 分 块 打分 特征 。 


Table 3 Comparisons of different classification features and different classifiers 


表 3 不 同 分 类 算法 的 性 能 对 比 


Features LR NB KNN SVM RF GBDT 
Name 76.56 74.59 76.58 75.26 76.17 76.96 
Abbr. 74.24 73.63 73.95 74.16 77.64 771.25 
Ref. 74.09 70.38 75.83 53.96 77.92 78.71 
Name+Abbr. 79.10 77.67 78.82 78.14 83.03 81.05 
Name+Ref. 78.55 75.86 76.50 75.90 82.60 82.45 
Abbr.tRef. 77.11 74.94 76.03 74.44 80.31 80.83 
Name+Abbr.+Ref. 79.30 78.55 78.05 78.47 83.94 85.27 


从 表 中 可 以 看 出 ， 当 使 用 名 称 相似 度 特 征 、 缩 写 
相似 度 特征 和 参考 值 分 块 打分 特征 , 辅 以 GBDT 分 类 
器 时 ， 分 类 效果 最 好 ， 其 Fl 值 可 达 85.27%。 从 表 中 
横向 来 看 ， 无 论 使 用 哪 种 特征 ， 大 部 分 情况 下 都 是 


GBDT 分 类 效果 最 好 ， 而 NB 分 类 效果 最 差 。 这 是 因 
为 GBDT 使 用 Boosting 方法 进行 集成 学 习 ， 能 够 有 
效 提 高 泛 化 性 能 ， 而 NB 分 类 器 的 条 件 独立 假设 在 本 
文中 很 难 成 立 。 从 表 中 纵向 来 看 ， 无 论 哪 种 分 类 器 ， 


基本 都 是 随 着 特征 数目 的 增多 ， 分 类 效果 越 来 越 好 ， 
当 使 用 全 部 三 类 分 类 特征 时 ， 分 类 效果 达到 最 好 。 

@ 与 现 有 方法 的 对 比 

最 后 , 本 文 还 从 最 近 三 年 来 发 表 的 实体 对 齐 方 法 
中 选择 了 3 种 state-of-the-art 方法 ， 与 本 文 所 使 用 全 
部 三 类 特征 辅 以 GBDT 分 类 器 的 二 分 类 方法 进行 对 
比 ， 这 3 种 基准 方法 分 别 是 : 

知识 图 谱 融 合 方法 (KG Fusion): Wang 等 人 B7 
设计 不 同类 型 的 属性 相似 度 , 使 用 机 器 学 习 方法 进行 
多 源 知识 图 谱 的 融合 。 

诊断 对 齐 方法 (Diag. Alignment): Ning 等 人 B8] 
利用 诊断 的 上 下 位 信息 和 属性 相似 度 将 中 文 诊断 映 
射 为 ICD 编码 。 

知识 库 对 齐 方 法 (KB Alignment): 王 雪 鹏 等 人 G9 
利用 网 络 语义 标签 进行 多 元 知识 库 的 实体 对 齐 。 


Table 4 Performance comparison of entity alignment 


表 4 与 现 有 方法 的 对 比 


Method Precision Recall Fl-score 
KG Fusion 79.23 73.60 76.32 
Diag. Alignment 81.67 74.62 77.98 
KB Alignment 87.20 72.59 79.22 
Ours 86.84 83.76 85.27 
4 结论 


本 文 针 对 区 域 医疗 健康 平台 中 的 检验 检查 指标 
标准 化 ， 先 根据 指标 的 字面 特征 进行 聚 类 ， 再 使 用 相 
似 度 特征 和 分 块 打 分 特征 迭代 地 进行 二 分 类 映射 。 实 
验 表 明 ， 最 终 的 二 分 类 映射 ， 其 Fl-score 可 以 达到 
85.27%， 优 于 现 有 方法 。 在 未 来 ， 可 以 将 指标 的 同 义 


需要 注意 的 是 ， 由 于 本 文 任务 中 既 没 有 属性 信 
息 ， 又 没有 上 下 文 信息 ， 所 以 在 实际 实验 中 3 种 基准 
方法 的 部 分 特征 没 法 使 用 , 而 主要 使 用 了 其 中 的 实体 
名 称 和 缩写 的 相似 度 计算 方法 。 

与 现 有 方法 的 对 比 实验 结果 如 表 4 所 示 。 从 表 中 
可 以 看 出 , 本 文 方法 在 所 有 方法 中 取得 了 最 好 的 分 类 
结果 , 其 Precision, Recall 和 F1-score 分 别 为 86.84%、 
83.76% 和 85.27%。 值 得 注意 的 是 ， 对 比 表 3 最 后 一 
列 ， 当 使 用 GBDT 分 类 器 时 , 本 文 方法 的 任意 两 类 特 
征 组 合 的 Fl-score 都 比 现 有 方法 来 得 好 。 这 是 因为 本 
文 的 算法 专门 针对 检验 检测 指标 进行 设计 , 因而 能 
得 更 好 的 效果 。 


my 
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